Nous allons étudier un jeu de données immobilières. Il s’agit des ventes de logements à King County, compté contenant la ville de Seattle aux États-Unis. Ce jeu de donnée a été utilisé par un cours Coursera, il semblait tout à fait convenir à une introduction à diverses techniques de l’analyse et traitement de données, sachant l’extreme diversité des méthodes à utiliser, même pour des données modestes. Parmi les avantages de cet ensemble de données, déjà mise en forme, pas d’imputation de données nécessaires, peu de facteurs, une application possible d’une régression linéaire sans être obligé d’utiliser des modèles complexes.
L’objectif de ce projet est d’analyser l’ensemble de donnée avant de faire une modélisation par régression linéaire, cette analyse est une étape indispensable pour développer une intuition sur l’ensemble de données, et donc la création de modèle.
Variables du jeu de données
Les données correspondent aux logements vendus entre mai 2014 et mai 2015. Un logement est constitué d’une surface habitable et d’un terrain. À chacun de ces logements sont associés les 21 variables suivantes:
id
Identifiant du logement (ignoré pour l’analyse)
date
Date de vente du logement [Date]
price
Prix de vente [Continu]
bedrooms
Nombre de chambres [Discret]
bathrooms
Ratio entre le nombre de salle de bain et de chambre
sqft-living
Surface du logement (somme du sous-sol et étages supérieurs) [Continu]
sqft-above
Surface du logement située au dessus du sol [Continu]
sqft-basement
Surface du logement au niveau du sous-sol [Continu]
sqft-lot
Surface du terrain [Continu]
floors
Nombre d’étages dans la maison [Discret]
waterfront
Vue sur les quais [Binaire]
view
Nombre de fois le logement a été visité [Discret]
condition
Appréciation de l’état du logement [Factoriel]
grade
Évaluation de la qualité de construction du logement [Factoriel]
yr-built
Année de construction [Date]
yr-renovated
Année de rénovation [Date]
zipcode
Zipcode
lat
Lattitude [Coordonnées]
long
Longitude [Coordonnées]
sqft-living2015
Surface du logement en 2015 [Continu]
sqft-lot2015
Surface du terrain en 2015 [Continu]
Petite précision sur le facteur grade. Ce facteur est directement issu de l’administration de King County, en particulier pour la collecte d’impots. Elle établit une classification de 1 à 13 des logements de King County en fonction de la finition du logement. Cela permet d’avoir une vague idée sur la valeur du logement en tant qu’édifice. Il y a donc un ordre entre les niveaux de ce facteur. Néanmoins, ce facteur ne doit pas être pris comme une valeur entièrement objective, car il peut s’agir d’une estimation.
[1-3] Ne convient presque pas aux standard de construction. A priori une cabane.
[4] Généralement un édifice de mauvaise qualité ayant vielli. Ne rentre pas dans les standards.
[5] Peu cher et peu travaillé. Petit et simple.
[6] Plus petite catégorie qui est aux normes. Matériaux de mauvaise qualité, simplicité.
[7] Construction normale que l’on rencontre sur un terrain habité.
[8] Construction un peu mieux que la moyenne. Meilleurs matériaux dans les finitions.
[9] Meilleure architecture, de bonnes conception et qualité d’éxécution.
[10] Les habitations de ce type sont celles de qualité supérieure, meilleur finition, plus spacieuse et un meilleur agencement des pièces
[11] Conception personnalisée et finitions de qualité supérieure, avec ajout de mobilier en bois massif, de mobiliers fixatif dans les salles de bains et agréments de luxe.
[12] Conception personnalisée et excellents éxécutants. Tous les matériaux sont de qualités supérieurs, et toutes les commodités sont présentes
[13] Généralement, conception et construction personalisées. Proche du niveau du manoir. Important travail pour les cuisines. Grande quantité de plancher en bois et de marbre. Grandes entrées.
Restriction à Mercer Island
L’île Mercer fait partie des 100 unités territoriales les plus riches de l’état de Washington. Elle est reliée à la terre qui l’entoure par une voie routière la traversant. On peut l’étudier comme un microsome étant donné le lac qui la sépare de la terre. Comparé à Vashon Island qui ne possède pas de liason terrestre, elle est dynamique et urbanisée.Au sein du jeu de données complet, on peut noter de très grandes disparités territoriales qui ont un impact direct sur le type d’habitation et leurs valeurs. En choisissant un ensemble géographiquement homogène et bien plus petit, on espère pouvoir avoir des conclusions plus précises et faciles à découvrir. Cela doit être vu comme une première étape à l’analyse du jeu de données complet, que l’on ne peut pas mener à cause de contraintes temporelles et manque d’expérience.
Sommaire
Variables continues
Minimum
1er Quartile
Médiane
Moyenne
3e Quartile
Maximum
price
500000.000
822000.000
993750.000
1.1942e+06
1385500.000
5300000.000
bathrooms
1.000
2.250
2.500
2.7163e+00
3.250
6.750
sqft_living
820.000
2260.000
3020.000
3.1068e+03
3650.000
9640.000
sqft_lot
3700.000
9870.250
11951.500
1.3704e+04
15740.500
92347.000
sqft_above
770.000
1692.500
2265.000
2.4743e+03
3180.000
5770.000
sqft_basement
0.000
0.000
535.000
6.3250e+02
1100.000
4820.000
lat
47.526
47.542
47.562
4.7560e+01
47.576
47.593
long
-122.251
-122.232
-122.225
-1.2223e+02
-122.216
-122.204
sqft_living15
1590.000
2390.000
2875.000
2.8987e+03
3380.000
4620.000
sqft_lot15
3776.000
10083.000
11664.500
1.2801e+04
15290.750
36563.000
Variables factorielles ou discrètes
Étages
Valeurs
1
1.5
2
2.5
3
Décompte
138
14
122
5
3
bedrooms
Valeurs
2
3
4
5
6
7
Décompte
4
74
126
68
8
2
view
Valeurs
0
1
2
3
4
Décompte
186
23
33
28
12
grade
Valeurs
1
3
4
5
6
7
8
9
10
11
12
13
Décompte
0
0
0
0
5
31
74
73
63
31
5
0
condition
Valeurs
1
2
3
4
5
Décompte
0
2
99
138
43
waterfront
Valeurs
0
1
Décompte
270
12
Variables temporelles
Sans valeurs manquantes
Minimum
1er Quartile
Médiane
Moyenne
3e Quartile
Maximum
yr_built
1916-01-01
1960-01-01
1968-01-01
1971-06-22
1980-01-01
2015-01-01
date
2014-05-06
2014-06-30
2014-09-22
2014-10-18
2015-02-23
2015-05-12
Avec valeurs manquantes
Minimum
1er Quartile
Médiane
Moyenne
3e Quartile
Maximum
Valeurs Manquantes
yr_renovated
1970-01-01
1990-01-01
2000-01-01
1996-01-01
2005-01-01
2012-01-01
249
Répartition géographique
Inégalités
Valeur
Surface habitée
Antérieurement à 2015
En 2015
Surface terrain
Antérieurement à 2015
En 2015
Corrélation linéaire
Réaménagements
Surface Habitable
Surface du terrain
Lien entre aménagement de la surface intérieure et extérieure
Lien entre aménagement de la surface intérieure et surface initiale du terrain
Harmonisation de la surface intérieure et la surface extérieure
Géographiquement
Surface habitable
Surface du terrain
Impact des caractéristiques du logement sur le prix
Surface habitable
En 2015
Avant 2015
Surface du terrain
En 2015
Avant 2015
Utilitaires
Salles de bain
Salles à coucher
Audit
Grade
Condition
Temps
Année de construction
Année de rénovation
Date de vente
Réaménagements
Surface habitable
Surface du terrain
Une valeur anormalement grande a été retiré du premier graphe en raison d’une valeur de \(sqft\_lot\) très éloignée du nuage (supérieur à 75000).